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利用 改进 蚁 群 算法 的 重 又 社团 检测 分 析 方 法 
许 英 
(新 疆 财经 大 学 应 用 数学 学 院 ， 乌 鲁 木 齐 830012) 


摘 要 : 针对 重 胎 社团 检测 准确 率 提 升 问 题 ， 提 出 了 一 种 基于 改进 蚁 群 算法 的 新 型 重 到 社团 检测 算法 。 该 算法 包含 
位 置 初 始 化 、 运 动 和 后 处 理 三 个 阶段 ， 分 别 通过 初始 位 置 识别 与 标签 列表 存储 、 基 于 节点 间 相 似 度 的 启发 式 信息 重 
定义 、 合 作 保 持 标签 列表 等 方式 ， en 
性 能 。 实 验 结果 表明 ， 在 合成 网 络 与 现实 世界 网 络 平台 上 使 用 不 同 检 测算 法 ， 所 提出 的 方法 对 重合 社团 与 重 党 节 

的 检测 准确 率 较 传统 检测 方法 来 说 更 高 ， 因 而 对 重 登 0 
意义 。 
关键 词 : 重合 社团 与 节点 检测 ; 改进 蚁 群 算法 ; 启发 式 信息 重 定义 ; 标签 列表 和 迭代 更 新 
中 图 分 类 号 : TP311.1 doi: 10.19734/j.issn.1001-3695.2018.10.0803 


Novel algorithm of overlapping community detection and 
analysis with improved ant colony algorithm 


Xu Ying 
(School of Applied Mathematics, Xinjiang University of Finance & Economics, Urumqgi 830012, China) 


Abstract: This paper proposes a new detection algorithm for overlapping communities based on ant colony algorithm to 
improve the detection accuracy of overlapping communities. The algorithm consists of three stages: position initialization, 
motion and post-processing. The algorithm achieves better performance through initial position identification and tag list 
storage, heuristic information redefinition based on similarity between nodes, and cooperative tag list preservation in 
synthetic datasets and real-world datasets of overlapping communities and overlapping nodes detection. The detection 
performance of different detection algorithms on synthetic and real world network platforms shows that the proposed 
overlapping community detection and analysis method based on improved ant colony algorithm has good accuracy and 
analysis performance. The method can be used for reference in solving the current overlapping community detection 
problem and understanding the functional structure of the network. 

Key words: overlapping community and node detection; improved ant colony algorithm; heuristic information redefinition; 
tag list iteratively update 


种 局 部 优先 的 动态 网 络 重 合 社 团 演化 分 析 方 法 ， 但 其 全 局 最 


ee 才 
0 引证 优 性 有 待 验证 。 文 献 [1H] 提 出 了 一 种 使 用 最 优 特征 向 量 的 谱 
社团 定义 为 网 络 结构 中 依据 具备 共享 属性 的 顶点 中。 类 二 分 社团 检测 方法 ， 在 上 述 重 登 社团 检测 算法 中 ， 虽 然 可 以 
以 于 社会 网 络 中 一 个 人 具有 不 同 角 色 , 在 标准 化 网 络 分 区 中 ， ”一 定 程度 上 很 好 地 解决 重合 社区 检测 分 析 问 题 ， 但 均 忽 上 略 了 
分 区 中 每 个 顶点 被 分 配给 一 个 社团 外 ， 且 被 社团 之 间 共 享 。 迭代 过 程 中 节点 标签 变更 对 检测 性 能 的 影响 。 
比 外 ， 由 于 不 同 节点 在 网 络 结构 和 功能 上 具有 不 同 作 用 ， 所 寻 此 ,借鉴 蚁 群 算法 中 信息 素 更 新 与 运动 路 径 选 择 策略 ， 
以 检测 网 络 中 的 重 半 社团 可 更 深入 地 了 解 网 络 的 功能 与 结构 。 本 文 提出 一 种 基于 改进 蚁 群 算法 的 重 辣 社区 检测 算法 (ant 


对 此 ， 近 年 来 重 辣 社团 检测 研究 己 引起 学 术 界 极 大 关注 。 众 colony based algorithm，AntCBO)。 在 建立 基于 蚁 群 算法 的 重 
多 具备 良好 分 析 性 能 的 算法 相继 提出 ， 并 广泛 应 用 于 延迟 容 车 社 团 检 测 框 架 基 础 上 ， 通 过 基于 节点 间 相 似 度 的 启发 式 信 
忍 网 络 B 和 HH、 推 荐 系统 中 等 领域 。 息 重 定义 与 基于 标签 列表 更 新 存储 的 蚁 群 路 径 选择 两 个 环节 
当前 社团 检测 算法 大 致 可 分 为 五 类 员 ， 即 派系 过 滤 算 法 ”实现 重 闭 社 团 检测 ， 基 于 合成 数据 集 和 现实 世界 数据 集 平台 
(clique percolation method，CPM)、 局 部 扩展 和 优化 算法 、 开展 检测 算法 性 能 分 析 。 

链接 分 区 算法 、 模 糊 检测 算法 和 基于 代理 的 算法 。 文 献 [7] 人 A、 0 
将 索引 局 部 邻接 表示 法 引入 社团 检测 时 的 个 体 表示 中 ， 将 社 。 1 ”人 "tCBO 重合 社区 检测 算法 基本 架构 
团结 构 分 析 转 换 为 整数 优化 问题 ， 并 据 此 提出 基于 差分 进化 网 络 抽象 可 建 模 为 无 向 图 G=(V，E)， 其中 VE 分 别 
的 社团 检测 算法 。 文献 [8] 基 于 群体 智能 思想 提出 一 种 自 组 织 为 节点 与 边 集合 。 设 每 个 节点 v 都 具有 唯一 标签 
的 重 芭 社团 结构 分 析 算 法 ， 但 智能 体 间 收 化 精度 对 检测 性 能 (identification, ID ) 1,， 并 记 os 点 v 的 邻 域 . 重 对 社团 
影响 较 大 。 文 献 [9] 从 有 效 融合 两 类 不 同 的 异 质 信 息 研 究 出 发 ， 检测 目的 为 ， 寻 求 某 种 方法 ， 将 抽象 得 到 的 无 向 图 
万 


和 | 
| 内 
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Wun 


G 
提出 了 一 种 基于 交互 行为 和 连接 分 析 的 社交 网 络 社团 检测 六 一 系列 小 集群 (C1, Cz, .…, Cm), 使 每 个 集群 中 具有 相同 
法 ， 但 检测 性 能 很 大 程度 依赖 于 数据 属性 。 文 献 [10] 提 出 数学 描述 为 
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1.1 算法 框架 
提出 的 AntCBO 算法 框架 如 算法 1 所 示 , 包含 四 个 模块 ， 
即 参数 初始 化 、 蚂 蚁 位 置 初 始 化 、 运 动 路 径 决 策 与 后 处 理 。 
基本 流程 为 : a) 初始 化 参数 ， 视 每 个 节点 为 蚂蚁 个 体 ， 并 基 
于 信息 素 和 提出 的 启发 式 信 息 计 算 转 移 概率 矩阵 ; b) 初始 化 
蚂蚁 位 置 并 确定 对 应 的 ID 列表 ; c) 所 有 蚂蚁 基于 转移 概率 
模型 移动 位 置 ， 此 过 程 中 每 个 蚂蚁 将 节点 标签 从 一 个 节点 传 
递 到 另 一 个 节点 并 更 新 信息 素 ; d) 满足 终止 条 件 时 , 保存 蚂 
蚁 个 体 当前 标签 列表 ， 得 到 各 节点 标签 序列 ; e) 采用 后 处 理 
机 制 将 网 络 划 分 为 重 有 登 社区 。 
算法 1 AntCB0 算法 框架 
输入 : 复杂 网 络 6=(V，E)。 
输出 : 一 组 重 释 社团 C。 
1 参数 初始 化 :办 代 次 数 最 大 值 T; 蚂蚁 数量 n; 初始 信息 素 值 r; 信 
息 素 挥发 率 p; 闵 值 85， 信息 素 增加 量 x， 信 息 素 阔 值 b。 
根据 式 (1) ~ 式 (3) 计算 转移 概率 矩阵 。 
2 蚂蚁 位 置 初始 化 
3 蚂蚁 移动 : ”for t=1 TO T DO 
for i=1 to n do 


每 个 蚂蚁 按照 转移 概率 和 矩阵 移动 


祝 息 素 扩 散 和 更 新 
end for 
end for 
4 后 处 理 


1.2 AntCBO 算法 的 改进 

对 AntCBO 来 说 , zj(), (i, 折 1, 2,...,n 且 为 ) 之 间 的 相对 
大 小 会 直接 影响 蚁 群 位 置 之 间 的 转移 概率 ， 从 而 直接 影响 可 
行 解 的 质量 。 这 是 由 于 搜索 算法 进行 过 程 中 ， 早 起 分 散 分 布 
的 信息 素 将 逐渐 集中 至 部 分 边 上 ， 从 而 不 断 强化 搜索 方向 。 
当 某 些 边 的 信息 强度 明显 高 出 其 他 边 时 会 导致 可 行 解构 造 时 
选择 的 边 过 于 接近 导致 解 结构 过 于 相似 ， 从 而 算法 陷入 局 部 
最 优 解 。 而 避免 算法 陷入 局 部 最 优 解 的 根本 方法 是 增加 可 行 
解 的 多 样 性 .其 核心 是 使 信息 素 在 边 上 的 分 布 不 至 过 于 集中 ， 
从 而 使 得 更 多 的 边 能 够 以 较 高 的 概率 参与 构造 可 行 集 过 程 。 
即 既 充分 利用 蚁 群 算法 的 正 反馈 机 制 加 快 搜索 进程 ， 又 必须 
尽 可 能 地 过 大 算法 可 行 解 的 搜索 区 域 ， 使 用 更 多 边 形成 新 的 
可 行 解 。 遵 循 这 一 思路 ， 本 文 提出 直接 交换 部 分 变 上 信息 素 
的 方法 改变 (0 在 不 同 边 上 的 分 布 ， 从 而 避免 算法 后 期 陷入 
局 部 最 优 解 .具体 过 程 为 :每 个 节点 设 定 交 换 概率 pi, 天 1, 2,.…， 
n， 并 生成 随机 数 r; ~ U(0, 1)。 若 7i 志 pi:， 则 在 节点 i 与 其 他 
节点 可 以 形成 的 n-1 条 边 中 ， 随 机 选择 一 定数 量 的 边 ， 两 两 
互 换 对 应 的 信息 素 值 ， 若 ri>p;， 则 不 作 上 述 处 理 。 

此 外 ， 信 息 素 的 挥发 率 也 会 影响 信息 素 分 布 。 传 统 蚁 群 
算法 中 信息 素 挥 发 率 p 往往 被 设置 为 常数 ， 且 每 条 边 的 挥发 
率 相同 ,此 种 操作 会 导致 部 分 边 用 于 构造 可 行 解 的 概率 过 大 ， 
不 利于 其 他 边 参 与 构造 新 可 行 解 。 因 此 ， 本 文采 用 变 参 挥发 
率 来 避免 最 优 路 径 上 的 某 些 边 由 于 信息 素 强 度 过 低 而 失去 选 


择机 会 ， 其 计算 公式 如 下 : 
Pi(D=1 TS (2) 
让 二 DOscC 
BR @) 


其 中 :py() 表 示 t 时 刻 边 六 上 信息 素 挥发 率 ，tearw 是 早期 搜 
索 时 间 ; ,2E(0,1) 且 >hp; 此 外 机、 有 两 者 数值 不 宜 差 别 
过 大 ， 否 则 会 导致 交换 后 信息 素 挥 发 过 快 或 过 慢 影响 前 述 交 
换 边 效 果 ; C 为 介 于 t(D) 均 值 与 最 大 值 之 间 的 常数 。 


由 于 直接 模拟 蚂蚁 融 食 行为 进行 社团 相似 节点 聚 类 ， 算 
法 核心 为 设计 合理 的 启发 信息 与 信息 素 更 新 策略 计算 转移 概 
率 和 矩阵 ， 为 蚁 群 移动 路 径 提 供 诀 策 依 据 。 结 合 应 用 背景 ， 首 
先 采 用 任意 节点 i 与 j 间 相似 性 度 值 来 更 新 启发 信息 , 如 式 (4) 
5) 所 示 。 


comm(i, j)=neibour(i) Mneibour (j) 0 
ee lcomm(i, 7) 
WY neibour (i) J neibour( (5) 
ee 2x|E(comm(i, j))| 


(lcomm(i, D|) (lcomm(i, 7)—1) 

其 中 : |comm(i, 首 表示 节点 i 和 j 共同 邻居 的 数量 ， neibour(i) 表 
示 节 点 i 的 邻居 ; neibour( 有 站 表示 节点 j 的 邻居 ;|B(commn(i,7)) 
表示 连接 每 个 共同 邻居 节点 的 边 的 数量 。 从 式 (3) 可 知 ， 启 发 
式 信息 更 新 策略 由 两 项 组 成 ， 并 通过 权重 系数 y 控制 两 者 在 
启发 信息 中 的 重要 程度 。 其 中 ， 第 一 项 为 顶点 i 和 j 的 公共 
邻居 数量 除 以 两 个 顶点 邻居 的 并 集 数 ， 它 度量 了 两 节点 间 平 
均 公 共 邻 居 节 点 数 ;， 第 二 项 是 公共 邻居 之 间 的 连 边 数 量 除 以 
它们 之 间 可 能 存在 的 连 边 数 量 ， 并 且 它 量化 了 公共 邻居 彼此 
之 间 的 连接 距离 。 其 实际 物理 意义 为 ， 若 两 邻居 节点 上 县 有 很 
多 公共 邻居 且 公 共 邻 居 连 接 距 离 较 近 ， 其 属于 同一 社团 概率 
更 高 。 计 及 信息 素 与 启发 信息 更 新 策略 的 状态 转移 概率 矩阵 
如 式 (4) 所 示 。 


(PP 
有 Daneibowts) rt(i, 让 ni 
0 else 


其 中 :a 和 Bp 表征 信息 素 与 启发 信息 在 迭代 过 程 中 强化 程度 。 
2 ”所 提 AntCBO 算法 步骤 


2.1 蚂蚁 位 置 初始 化 
此 步骤 首先 进行 蚂蚁 “〈 即 节点 ) 位 置 与 对 应 的 标签 列表 
的 初始 化 过 程 。 即 网 络 G 按 各 节点 的 度 [9 降 序 排列 后 计算 各 
节点 间 的 公共 邻居 并 划分 为 初始 社团 sg， 根据 初始 社团 各 节 
点 ID 生成 相应 的 标签 列表 ， 并 将 蚂蚁 个 体 放 置 在 初始 集 和 
的 节点 中 。 有 具体 步骤 如 下 所 示 。 
算法 2 ”步骤 一 : 蚂蚁 位 置 初始 化 
输入 : 一 个 复杂 网 络 6(V，E)。 
输出 :蚂蚁 的 位 置 Cnode 以 及 存储 在 每 个 节点 v 的 标签 列表 L (v.L) 。 
1 令 Cnode、CN、v./ 为 空 集 
2 每 个 节点 v 具有 一 个 ID 
3 vvew:vavaiaple=1rue 
4 根据 节点 的 度 对 所 有 节点 进行 降序 排序 得 到 列表 上 
5 for each viEL DO 


- Jj eneibour(i) 
让 


(6) 


6 sg 

7 if v.available BL d(v,)>3 then 

8 找到 的 邻居 中 度 最 大 对 的 节点 并 令 VW.availabe -true 
9 sg € sg Uf{v,v,} 
16 计算 v 和 vj 的 共同 邻居 comNei 
11 while comNei#*@G do 


12 for each v, in comNei do 


13 sg < sg Uf{v,} 


14 Z=neibour(v,,)McomNei 并 


Z 代 蔡 comNei 


15 end for 

16 end while 
17 end if 

18 CN<-CNUsg 
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19 for each v. in sg do 

20v.1€ v1D 

21end for 

22end for 

23Cnode 是 CN 中 节点 ， 不 在 Cnode 中 的 节点 使 


2.2 蚂蚁 的 移动 


等 : 利用 改进 蚁 群 算法 的 重 登 社团 检测 分 析 方 法 


其 本 身 ID 初始 化 


每 个 蚂蚁 都 会 根据 转移 概率 将 ID 在 两 节点 间 转 移 。 为 
提高 蚂蚁 遍历 整个 网 络 抽象 图 G 的 几率 , 中 蚂蚁 移动 规则 设 


为 : 如 果 随 机 数 x 小 于 0.1， 则 蚂蚁 将 选择 


居 作 为 下 一 个 要 访问 的 节点 ， 否 则 蚂蚁 随机 选择 除 具 有 最 大 


最 大 概率 的 邻 
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3 ”实验 结果 与 分 析 


为 验证 AntCBO 算法 在 求解 重 羡 社区 检测 问题 的 准确 度 
和 分 析 性 能 ， 分 别 在 合成 网 络 和 现实 世界 网 络 环境 下 进行 对 
比 实 验 实 验 ， 实 验 中 以 派系 过 滤 算 法 (cluster percolation 
method，CPM) 和 社区 重 肝 传播 算法 (community overlap 
propagation algorithm，COPRA) 作为 AntCBO 的 对 比 算法 ， 
通过 实验 对 比 算法 在 重 膨 社区 检测 准确 度 的 优 劣 性 。 
对 上 述 三 种 算法 进行 实验 时 ,需要 对 算法 参数 进行 设置 ， 


转移 概率 的 邻居 节点 作为 访问 节点 。 
相同 转移 概率 的 ID 时 ， 将 随机 选择 其 一 。 
帮 代 结 


而 蚂蚁 需 访 问 多 个 具有 


时 ， 蝎 蚊 从 当前 节点 移动 至 下 一 


节点 。 此 外 ， 


每 个 蚂 蚊 从 当前 节点 的 标签 列表 中 选择 其 一 存放 至 下 一 节点 


标签 列表 中 。 


言 息 素 则 存放 与 昌 蚁 在 不 同 节点 转移 的 路 径 之 


上 。 信 息 素 挥发 过 程 则 在 每 次 迭代 过 程 结束 之 时 。 曲 蚁 运动 


策略 如 算法 3 所 示 。 
算法 3 步骤 二 : 蚂蚁 的 移动 
1while 不 满足 终止 条 件 do 
2for 每 只 蚂蚁 DO 
3 蚂蚁 基于 转移 概率 矩阵 从 节点 工 移 动 到 节点 了 


4 蚂蚁 从 一 个 节点 移动 到 下 一 节点 ， 并 从 当前 节点 到 下 


一 个 标签 ， 将 这 一 标签 保留 在 下 一 节点 标签 列表 
5 该 边 的 信息 素 量 增加 x 

6if 信息 素 值 超 过 阔 值 b then 

7 将 信息 素 的 值 设 置 为 b 

8end if 

9 所 有 的 蚂蚁 移动 后 ， 所 有 边 的 信息 素 按 p 挥发 ， 
16end for 

11 重新 计算 转移 概率 矩阵 

12end while 


信息 素 超 出 预定 值 b 时， 


其 他 路 径 上 的 信息 量 ， 并 且 可 消除 所 
径 的 情况 。 
2.3 后 处 理 


Im| 


个 节点 获得 


Tew =(1—pP)xXT 


此 外 ， 为 避免 算法 过 早 收敛 到 非 全 局 最 优 解 ， 规 定 : 当 
应 将 边缘 信息 素 限制 到 最 大 值 。 通 
过 这 种 方式 ， 可 以 有 效 地 避免 一 条 路 径 上 的 信息 量 远 远 大 于 
有 蚂 蚊 集中 在 同一 条 路 


迭代 终止 后 ， 统 计 各 节点 中 标签 列表 各 从 属 值 出 现 


率 。 若 某 一 值 出 现 频率 在 整个 标签 列表 中 取 值 较 大 ， 则 该 节 


点 属于 该 标签 的 概率 更 高 。 为 提高 重 登 社团 检测 ; 


往 确 率 ， 局 


采用 算法 对 待 检测 网 络 进行 多 次 扫描 ， 以 确定 最 终 的 社团 划 


分 。 
节点 vv 的 邻居 节点 的 数量 ; 
的 所 有 可 能 的 标签 的 数量 。 
算法 4 步骤 三 ， 后 处 理 

输入 : 节点 及 其 标签 列表 。 
输出 : 重 双 社团 的 集合 C。 


后 处 理 步 又 如 算法 4 所 示 。 其 中 : 


No 表示 具有 标签 1 
sum 表示 节点 v 的 邻居 节点 中 


1 首先 根据 标签 列表 中 频率 从 最 大 的 标签 获得 每 个 节点 的 标签 


2for each 节点 v do 

3 找到 节点 v 邻居 节点 NGC) 并 记录 其 邻居 的 标签 全 
4for each 标签 L in L do 

5if |N'(v)|/sum>0 then 

6L 是 节点 v 所 从 属 的 一 个 社团 

7end if 

8end for 

9end for 

18 删除 所 有 包含 在 大 社团 中 的 小 社团 

11 返回 重 炙 社团 集合 C 


于 


EE 合 L 


实验 参数 设置 如 下 : CPM 算法 中 , 对 于 合成 网 络 数据 集 , f=3， 
对 于 真实 世界 数据 集 , 大 从 3 到 10 变化 ，COPRA 算法 中 ， 
对 于 合成 网 络 数据 集 ，v=8， 对 于 真实 世界 数据 集 ，v 在 1 到 
9 之 间 变 化 ;而 AntCBO 的 实验 参数 如 表 1 所 示 。 


表 1 AntCBO 算法 的 参数 
Table 1 Parameters of antcbo algorithm 

描述 参数 表示 值 
最 大 达 代 次 数 了 500 

初始 化 信息 素 值 7 8 
信息 素 衰减 p 0.12 

闵 值 0 (0.08, 0.5) 

信息 素 增 加 x 0.15 
填 息 素 阔 值 b 20 


3.1 合成 网 络 实验 

合成 网 络 实验 通过 广泛 采用 局 部 最 大 化 (local fitness 
raximization, LFR) 基准 来 生成 , 可 更 好 地 实现 节点 数量 和 节 
点 满足 容 律 分 布 , 因此 LFR 更 接近 真实 的 社交 网 络 。 在 实验 
中 ， 本 文通 过 LFR 基准 生成 四 个 数据 集 ， 这些 数 据 集 的 参数 
如 表 2 所 示 。 


一 


表 2 合成 网 络 的 参数 


Table 2 Parameters of Synthetic network 


数据 集 ”节点 数量 ”社团 尺寸 范围 a Or On 
1 1500 10~50 0.08 100 2-~6 
2 1500 10~50 032 100 2~6 
3 4500 10~50 0.08 500 2~6 
4 4500 10~50 0.32 500 2~6 


3.2 重 又 社团 识别 准确 度 分 析 

合成 网 络 实验 中 ， 采 用 扩展 归 一 化 互信 息 (normalized 
mutual information，NMI) 来 对 比 三 种 方法 对 重 对 社 团 识别 
的 准确 性 。NMI 可 以 表征 检测 到 的 分 区 和 真实 分 区 之 间 的 相 
似 性 , 其 值 在 0~1 之 间 变 化 , 且 NMI 值 越 高 ,分 区 结果 越 好 。 
三 个 合成 数据 集 上 的 三 种 算法 的 最 佳 NMI 值 如 图 1 所 示 。 对 


于 分 区 c 和 C" ，NMI 值 由 式 (7) 和 (8) 确 定 。 
NMI =1-3LH(X I)+ HY|X)] (7) 
_ 1 -HXIY) 
Se (8) 


其 中 : 对、 了 表示 分 区 C 和 C" 相关 联 的 随机 变量 ，HCXI) 是 
节点 属于 了 的 前 提 下 还 属于 站 的 归 一 化 条 件 米 ,也 可 以 以 同 
样 的 方式 定义 为 节点 属于 也 的 前 提 下 还 属于 了 的 归 一 化 条 件 
入 。 


为 验证 算法 的 普 适 性 ， 首 先 对 比分 析 同 一 数据 集 下 不 同 
算法 的 重 受 社团 检测 性 能 。 从 图 1(a)~(d) 可 以 看 出 ， 对 于 不 
同 的 网 络 规模 和 不 同 的 社区 范围 大 小 ， 成 员 数 量 Ow 从 2~6 
变化 时 ， 本 文 所 提 AntCBO 算法 在 LFR1、LFR2 和 LFR4 数 
据 集中 的 NMI 值 始终 高 于 其 他 两 种 算法 , 而 对 于 LFR3 数据 
集 而 言 ， 虽 然 在 成 员 数 量 较 小 时 NMI 值 低 于 CPM 算法 ， 但 
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成 员 数 量 增 大 后 


其 NMI 值 同样 高 于 另外 两 种 算法 。 这 说 明 本 


文 所 提 AntCBO 算法 对 于 成 员 数 量 较 高 时 具有 很 强 的 检测 性 


能 ， 而 低 成 员 数 量 时 虽 性 能 


Fig. 1 


台 已 
月 


一 一 CPM 
“COPRA 
AntCBO 


FR 


3 
(a) 数 据 集 LFR1 
(a) data set: LFR1 
LFR3 


3 
(c) 数 据 集 LFR3 
(c) data set: LFR3 


了 所 下 降 但 仍 具 有 较 高 的 辨识 能 


LFR2 


3 4 5 
(b) 数 据 集 LFR2 
(b) data set: LFR2 

LFR4 


Om 


4 5 5 
5 Om 2 4 5 Om 


3 
(d) 数据 集 LFR4 
(d) data set: LFR4 


图 1 


三 种 筑 


法 在 四 个 数据 集 下 的 NMI 值 比较 


为 验证 算法 
的 影响 ， 对 比 


2(a)~c) 示 出 了 三 


化 | 


此 


势 来 看 ， 虽 然 AntCBO 算法 与 COPRA 算法 的 下 降 
均 在 0.2 左右 )， 
LFR4, Om=6) 时 其 NMI 指标 仍 比 COPRA 算法 核 CPM 算 
法 分 别 高 30.9% 和 83.3%， 从 而 说 明 本 文 所 提 AntCBO 算法 


( 


对 
确 


( 妈 


青 况 。 可 以 看 


Comparison of NMI values of three algorithms under 6 data 


sets 
的 健壮 性 并 分 析 网 络 规模 对 重 营 社团 检测 性 
同一 算法 随 网 络 规模 增 大 时 的 检测 性 能 。 图 
种 算法 在 数据 集 LFR1~LFR4 下 的 NMI 值 变 


| 


述 三 种 算法 的 


于 网 络 规模 大 
度 。 


1 


Al 


H , 随 着 成 员 数量 的 增多 和 网 络 规模 的 扩大 ， 

NMI 值 均 出 现 了 不 同 程度 的 下 降 。 从 下 降 趋 
局 度 相近 
但 本 文 所 提 AntCBO 算法 在 网 络 规模 较 大 
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3.3 ”重合 社团 检测 数量 分 析 


进一步 分 析 本 文 所 提 AntCBO 算法 对 重 辣 社 


团 检 
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的 性 能 。 轿 


3 示 出 了 不 同 算法 


下 ， 检 测 出 重 登 社团 数 


准 测 试 中 标准 


社团 数量 的 对 比 示意 图 .图 3(a)~(d) 可 以 


虽然 三 种 算法 在 网 络 规模 较 小 且 成 员 数量 较 少 时 


反映 出 重合 社团 数量 的 真实 值 ， 但 随 着 网 络 规模 和 成 


增 大 时 ， 相 较 于 另外 两 种 算法 ， 本 文 所 提 AntCBO 算 


外 
| 内 


果 与 基准 


均 能 较 好 j 


量 与 基 
看 出 ， 


[E=3 


法 的 结 


(a) 数 据 集 LFR1 (b) 数 据 集 LFR2 
(a) data set: LFR1 
LFR3 400 Ta 
i 


(c) 数 据 集 LFR3 
(c) data set: LFR3 


(d) 数据 集 LFR4 
(d) data set: LFR4 
图 3 ”在 四 个 数据 集 上 通过 三 种 算法 检测 到 的 社区 数量 


Fig. 3 


3.4 


sets 


重 又 社团 检测 准确 度 分 析 


实验 中 为 了 方便 地 分 析 算 法 对 网 络 重 闭 社 团 的 识 
度 ， 定 义 函 数 Fscore 用 于 测量 检测 重 世 社团 算法 的 Y 


它 是 准确 率 


Number of communities detected by 3 algorithms on four data 


别 准 


住 确 性 ， 


(precision) 和 如 匠 


、 成 员 数 量 多 的 重 登 社团 检测 有 具 


办 局 的 准 


ntCBO COPRA 


0.9 


0.8 


0.7 


0.6 


0.6 一 
号 os 号 05 
2 0.4 加 04 + 
03 /LFRL 03 =UR1 
0.2 LFR2 02 I~ LFR2 
01 /=HR3 ol1 |/——UR3 
0 /eeLFR4 ; 0 /UR4, ， _ 
2 3 4 5 6 2 3 4 5 6 
O。 O。 
(a) AntCBO 算法 (b) COPRA 算法 
(a) AntCBO algorithm (b) COPRA algorithm 
3 
09 < 一 一 - 
08 aa 
07 se 
06 
05 1 
04 RS 
| 一 一 LFR1 
02 一 一 LFR2 
ol .一 和 一 LFR3 
。 —e—LFR4 
对 3 4 5 6 
On 
(c) CPM 算法 
(c) CPM algorithm 
图 2 三 种 算法 在 LFR1~LFR4 上 的 NMI 值 


Fig.2 NMI values of three algorithms on LFRI~LFR4 


其 中 :precision 是 了 


其 定义 公式 如 式 (9) 所 示 。 


2* precision* recall 
Fscore= I 
precision+ recall 


图 4 示 昌 


tH 了 同一 数据 集 下 不 同 检测 算法 对 重 膨 社 


识 准确 度 。 


和 LFR2 的 检测 准确 度 较 好 〈 即 Fscore 函数 值 更 高 ) 


网 络 规模 较 4 


\ 时 ， 本 文 所 提 AntCBO 算法 能 够 较 准确 


出 重 铸 社团; 


率 (recal1) 的 调和 平均 


(9) 


E 确 检测 到 的 重合 节点 的 数量 除 以 检测 到 
的 重 县 节 点 的 所 有 数量 ;recal 被 定义 为 正确 检测 到 
节点 的 数量 除 以 重合 节点 的 真实 数量 所 得 到 的 值 。 


的 重 受 


团 的 辩 


从 图 中 可 以 看 出 , 本 文 所 提 AntCBO 算法 在 LFR1 


， 故 在 
也 辨识 


而 当 网 络 规模 较 大 时 (如 LFR3 和 LFR4), CPM 


算法 的 Fscore 函数 值 相 比 于 AntCBO 算法 和 COPRA 算法 更 


高 ,说明 其 对 重合 社团 的 检测 更 为 准确 。 此 外 ,从 图 


| 


界 网 络 的 重 苇 社 区 结构 未 知 , 所 以 NMI 值 不 能 用 于 测 
实验 中 采用 


的 性 能 ， 


及 络 中 所 提出 的 AntCBO 算法 


4(a)~(d) 
可 以 看 出 ， 本 文 所 提 AntCBO 算法 比 COPRA 的 检测 准确 度 
均 要 好 。 结 合 3.1.1 和 3.1.2 节 分 析 ， 虽 然 CPM 算法 在 网 络 
规模 较 大 和 成 员 数 量 较 多 时 的 重生 社团 检测 准确 率 高 
文 所 提 AntCBO 算法 在 重 炙 社团 检测 数量 上 更 接近 真实 网 络 。 
故 总 体 而 言 , 本 文 所 提 AntCBO 算法 性 能 强 于 另外 两 种 算法 。 
3.5 真实 世界 社交 网 络 

本 节 讨 论 在 真实 世界 社交 
对 重 有 社团 的 检测 性 能 。 相 关 参 数 如 表 3 所 示 。 由 于 


> 但 本 


真实 世 


Qo 来 评估 算法 性 能 。Qow 的 定义 


量 算 > 


星 异 
为 重 


证 


地 
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社区 检测 的 经 典 模块 性 的 扩展 ， 它 考虑 了 每 个 顶点 所 属 的 社 


区 数量 以 及 每 个 社区 的 成 员 资 格 程度 ，QOow 的 值 越 高 ， 说 明 


算法 分 区 越 好 。 主 要 公式 如 式 (10)~(15) 所 示 。 


LFR1 


LFR2 


—m—CPM 
J_ 一 一 COPRA 
0 AntCBO 
2 于 4 > 6 
Om 
(a) 数 据 集 LFR1 (b) 数据 集 LFR2 
(a) data set: LFR1 (b) data set: LFR2 
Pp LFR3 LFR4 


区 04 和 em - 0 = 
03 1+ 02 Te 
02 CPM CAM 
COPRA 01 -一 COPRA 
全 -0—AntcBO AuCRD 
0 0 
2 3 4 5 6 2 3 4 5 6 
Om Om 
(c) 数 据 集 LFR3 (d) 数据 集 LFR4 


(c) data set: LFR3 (d) data set: LFR4 
图 4 基于 LFR1~LFR4 的 重 且 节点 检测 评估 
Fig.4 Evaluation of overlapped node detection and based on 
LFRI1~LFR4 
表 3 真实 世界 社交 网 络 参数 
Table 3 Digest ofreal world social networking 


数据 集 。 节点 数量 边 数 量 平均 度 ” 社 团 数量 
Karatel!3] 33 78 4.6 2 
Dolphins09] 60 160 5.2 2 
Football05] 116 615 10.8 12 
OoD = 60x-30 (10) 
| 
F = 
(Qos Qe) (Eee (11) 
Beine =F (6,0 (12) 
EF(a.,0;.) 
out = 13 
Ii)e VI ( ) 
EF(g,,0).) 
te (14) 
- 
ls 人 CT) kk 
2. = me 2 2 Bnet ou in (15) 
根据 实验 结果 ，QOo, 值 的 对 比 数据 如 表 4 所 示 。 由 表 4 


分 析 可 得 ，AntCBO 算法 在 karate、dolphins、football 网 络 上 


的 表现 其 优 于 COPRA 和 CPM。 
表 4 真实 世界 网 络 中 不 同 算法 的 Ow 值 


Table 4 Values of O,, with different algorithms in real-world networks 


数据 集 AntCBO COPRA CPM 
Karate 0.73 0.52 0.53 
Dolphins 0.73 0.70 0.67 
Football 0.70 0.68 0.63 
综 上 所 述 ， 对 于 大 多 数 真 实 世界 网 络 数据 集 ，AntCBO 
算法 可 以 获得 比 COPRA 和 CPM 更 高 的 O。 值 ， 这 也 说 明 


利用 改进 蚁 群 算法 的 重 有 登 社团 检测 分 析 方 法 


AntCBO 算法 相 比 于 另 两 种 算法 


4 
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备 更 好 的 性 能 。 


结束 语 
通过 现 有 对 重 麦 社区 检测 算法 的 


究 ， 本 文 提出 了 一 种 


基于 蚁 群 的 重 半 群体 检测 算法 。 该 算法 包括 参数 初始 化 、 蚂 
蚁 的 位 置 初始 化 、 曲 蚁 的 移动 和 后 期 处 理 等 阶段 和 步骤 。 以 


此 同时 ， 通 过 在 合成 和 
对 算法 所 能 实现 的 性 外 
于 CPM 和 COPRA,， 所 提出 的 基于 蚁 群 的 重 
在 社 


[现实 世界 数据 集 上 进行 的 实验 分 析 ， 

E 作 了 详细 验证 。 实 验 结果 表明 ， 相 对 
合群 体检 测算 法 
良好 的 性 能 ， 对 当前 重 过 社区 检 闹 


又 检测 质量 方面 


i 


二 
/ 匹 、 


题 的 求解 和 网 络 中 功能 结构 的 理解 


有 重要 的 参考 和 借鉴 
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